#trayectorias bidireccionales

BiTrajDiff: Generación de Trayectorias Bidireccionales con Modelos de Difusión para Aprendizaje por Refuerzo Fuera de Línea

BiTrajDiff combina trayectorias bidireccionales y modelos de difusión para mejorar el aprendizaje por refuerzo offline. Descubre cómo esta técnica optimiza la generación de políticas en entornos sin interacción directa.

2026-05-15 · 2 min